统计文章里动词词干使用频率

想知道哪些是斯瓦希里语中出现频率最高的动词词干,做一个最常用动词词干列表。方法是:一个词一个词地阅读一篇文章,检测这个词是否是动词的变形(之前的部分是否符合特定变形规则,在脚本里面被称为 pre-set),如果是的话就放进一个字典里。最后统计一下字典里最常出现的那些动词词干。 需要动词词干的列表。 [code language=”python”] # prepare the pre-set # affirmative pre1=[‘a’, ‘i’, ‘ki’, ‘ku’, ‘li’, ‘m’, ‘mu’, ‘ni’, ‘pa’, ‘tu’, ‘u’, ‘vi’, ‘wa’, ‘ya’, ‘zi’] pre2=[‘ka’, ‘ki’, ‘li’, ‘me’, ‘mesha’, ‘na’, ‘ta’] pre3=[‘i’, ‘ki’, ‘ku’, ‘li’, ‘m’, ‘mu’, ‘mw’, ‘ni’, ‘pa’, ‘tu’, ‘u’, ‘vi’, ‘wa’, ‘ya’, ‘zi’] preS1=set() for p1 in pre1: for p2 … Continue reading 统计文章里动词词干使用频率